درباره موتور جستجوی پارسیجو
این سامانه با تلاشهای بیوقفه تیم 40 نفره شرکت پارسیجو در مرکز تحقیقات مهندسی دانشگاه یزد با حمایت پژوهشگاه ارتباطلات و فناوری اطلاعات پیاده سازی شده و با صرف حداقل هزینه و تجهیزات به رشد و توسعه خود ادامه میدهد. در حال حاضر موتور پارسیجو بر روی یک بستر توزیع شده شامل 30 سیستم اجرا میشود و تاکنون در حدود 200 میلیون صفحه فارسی (از 500 میلیون سند) را نمایهسازی نموده است. همچنین این سامانه مجهز به پردازشگر و خطایاب هوشمند فارسی میباشد.
تاریخچه موتورجستجوی پارسیجو
فاز تحقیقاتی پروژه در شهریور 1387 شروع شده و طراحی و پیاده سازی پارسیجو در مهر 1388 آغاز گردید و نسخه 1 در 28 اردیبهشت 1389 با پوشش یک میلیون صفحه روی وب قرار گرفت. هم اکنون نسخه 3 پارسی جو با پوشش دویست میلیون صفحه روی وب قرار دارد.
معماری پارسیجو
پارسیجو موتور جستجویی مستقل و بومی است که شامل سه بخش اصلی میباشد.
الف) خزشگر (crawler) :
خزشگر پارسیجو که Parsijoo نام دارد به صورت هوشمند وب را پیمایش نموده و صفحات را جمع آوری میکند. در حال حاضر خزشگر پارسیجو، قادر به خزش دویست میلیون صفحه وب به صورت متوالی میباشد. نسخه جدید آن که بزودی بر روی وب قرار میگیرد قادر است بیش از یک میلیارد صفحه وب را جمعآوری کند. در این بخش اسناد وب فارسی با یک سیاست مناسب بر مبنای پوشش و تازگی از وب جمعآوری میشوند. یکی از مباحث مهم این بخش کشف صفحات مهم فارسی میشود که این عمل با استفاده از الگوریتم جدید هوشمند به نام ایساتیس انجام میگیرد. روش ایساتیس که توسط طراحان پارسی جو ارائه شده است صفحات مهم فارسی را کشف کرده و سپس بارگذاری میکند. همچنین این الگوریتم قادر به تشخیص صفحات فرب آمیز (اسپم) میباشد.
ب) نمایه ساز:
در این بخش متن خالص از اسناد فارسی (مانند HTML، DOC و PDF) بارگذاری شده، توسط خزشگر استخراج شده و با توجه به خصوصیات زبان فارسی نرمال سازی شده و سپس عمل نمایه سازی انجام میگیرد. در این بخش از یک پردازشگر فارسی برای پردازش کلمات و عبارات فارسی استفاده میشود که این پردازشگر قادر است عملیات فاصله گذاری و یکسان سازی کدینگهای استفاده شده را انجام دهد. همچنین تصاویر و بقیه اسناد در این بخش پردازش میشوند. کل این مجموعه عملیات بر روی یک بستر توزیع شده اجرا میگردد.
ج) بخش بازیابی و جستجو:
این بخش که به صورت برخط عمل می کند و با کاربر در ارتباط است، در ابتدا پرسجو را از کاربر گرفته و پس از پردازش آن، اسناد مرتبط را از بخش نمایهساز بازیابی میکند. در نهایت اسناد با استفاده از روشهای هوشمند رتبه بندی جدید که به صفحات فریب آمیز (اسپم) حساسیت پایینی دارند، رتبهبندی گردیده و به کاربر ارائه می شوند. الگوریتم رتبه بندی ارائه شده بیش از 50 ویژگی سایت های فارسی را با هم به صورت هوشمند ترکیب میکند تا نتایج ارائه شده مورد رضایت کاربران باشد. این الگوریتم نوین توسط تیم پارسیجو طراحی و ارائه شده است. همچنین پردازشگر پرسوجوی این بخش قادر است عملیات یکسان سازی کدینگها، ریخت شناسی صرفی و خطایابی را انجام دهد.
خدمات پارسی جو
1) وب:
این خدمت در بین 200 میلیون صفحه فارسی جستجو میکند. با توجه به اینکه صفحات وب از طریق گذرگاه رسمی شبکه کشور دریافت شدهاند، دارای محتویات امن و مطمئن میباشند. بزودی، نسخه جدیدی از پارسیجو به بهرهبرداری میرسد که امکان جستجو در بیش از 500 میلیون صفحه وب فارسی و در زمانی بسیار کوتاهتر را فراهم میسازد و در ضمن، کیفیت صفحات انتخابی نیز از نظر ارزش اطلاعاتی و رتبهبندی بهبود قابل توجهی یافته است.
2) تصویر:
این خدمت در بین میلیون ها تصویر جستجو میکند. این تصاویر عمدتاً از صفحات وب فارسی استخراج شدهاند و همانند جستجوی وب، سرویس جستجوی تصویر نیز تا حد امکان دارای محتویات امن و مطمئن میباشد. بزودی، پارسیجو قادر به جستجو در بیش از یکصد میلیون عکس موجود در وب خواهد بود.
3) خبر:
این سرویس به صورت هوشمند بیش از پنجاه سایت خبرگزاری را دستهبندی کرده و در اختیار کاربران قرار میدهد.
4) ترجمه ماشینی:
این سرویس قابلیت ترجمه دو زبانه متن از فارسی به انگلیسی، انگلیسی به فارسی و پینگلیش به فارسی به همراه فرهنگ لغت انگلیسی به فارسی را دارا میباشد . نسخه آزمایشی این سرویس به صورت روزانه در حال بهبود و بروزرسانی میباشد. خدمت ترجمه مبتنی بر روش ترجمه ماشینی هوشمند آماری عمل کرده و از ترجمه ماشینی ترگمان که توسط دانشگاه صنعتی امیرکبیر پیادسازی شده است، استفاده میکند.
5) آوا:
سرویس آوا با امکان جستجو،دانلود و پخش صوت و موسیقی در حجم انبوهی از فایلهای صوتی موجود در سطح وب فارسی را در اختیار کاربران قرار میدهد.
6) علمی:
این خدمت در بین یک میلیون مقاله انگلیسی و فارسی جستجو میکند. بزودی تعداد مقالات تحت پوشش چند برابر خواهد شد.
گفتنی است نسخه موبایل پارسیجو نیز به بهرهبرداری رسیده است و تمام سرویسهای فوق به راحتی با استفاده از گوشیهای هوشمند تلفن همراه در دسترس میباشند.
تیم پارسیجو به صورت شبانهروزی در حال تحقیق و فعالیت برای بهبود و ارتقاء این موتور جستجو میباشد و در آیندهای نزدیک شاهد بهرهبرداری از سرویسهای جدیدی خواهیم بود.